Veri analizi ile tarihi olaylara yönelik içgörü edinilebilir mi?

2011 yılında yayınladıkları “Metallica On Stage” veri görselleştirmesiyle Information is Beautiful ödüllerinin kazananları arasında yer alan, “Liderlerin Twitter takipçilerinin isim istatistikleri” araştırmalarıyla isimler, kültürel kodlar ve siyasi tercihler arasında bir örüntü yakalamaya çalışan Çilek Ağacı ekibi, Tasarım Sohbetleri serimizin bu bölümündeki konuğumuz oldu. Her biri multi-disipliner birer araştırmacı, akademisyen ve bilgi tutkunu olan Eser, Onur, Amaç ve Cem ile Çilek Ağacı’nın nasıl ortaya çıktığı, neye dönüşeceği ve doğal dil işleme, doküman analizi, veri madenciliği, yapay zeka, bilgi tasarımı ve veri görselleştirme gibi alanlar ile çeşitli algoritmaların kombinasyonu sonucu ne tür verilerden nasıl sonuçlar çıkarılabileceğine dair oldukça kafa açıcı ve ufkumuzu genişleten bir röportaj gerçekleştirdik.

Çilek Ağacı nedir? Nasıl ve hangi amaçla bir araya geldiğinizi kısaca anlatır mısınız?

Biz, bir grup mühendis, araştırmacı ve tasarımcıyız. Çilek Ağacı bizim için veri analizi ve bilgi tasarımı araçlarını sosyoloji, politika, popüler kültür gibi çeşitli alanlardan vakalara uyguladığımız bir hobi projesi, hepimizin başka işleri güçleri var. Üçümüz zaten yakın arkadaştık ve boş zamanlarımızda doğal dil işleme, doküman analizi, veri madenciliği, yapay zeka uygulamaları, bilgi tasarımı, veri görselleştirme gibi farklı uzmanlık alanlarımızı birleştirerek bazı analizler ve görselleştirmeler yapmaya başladık. İlgi gördüğünü fark edince bu birlikteliğe bir isim koyduk ve tutarlı bir görsel dil dahilinde üretim yapmaya devam ettik. Sonrasında Onur da aramıza katıldı. Son yıllarda hep seçim analizleriyle gündeme geliyoruz ama aslında (yıllar önce yaptığımız Metallica ve Hollywood analizleri gibi) siyaset dışı analizler de yapmayı çok istiyoruz – sadece vakit bulamıyoruz.

Çilek Ağacı kimlerden oluşuyor? Her biriniz kendinizi kısaca tanıtabilir misiniz? Eğitim geçmişiniz, şu anda ne üzerine çalıştığını ve alanınızda ulaşmak istediğiniz hedefiniz/hayaliniz nedir?

Cem İTÜ’de ve Sabancı Üniversitesi’nde tasarım eğitimi almış biyoloji sevdalısı ve mühendis kafalı bir bilgi tasarımcısı. 2009’da yüksek lisans tezi için (Çilek Ağacı’ndan Eser’in de yardımıyla) tasarım ürünlerinin genetik algoritma ile evrildiği bir program yarattı. Bilimsel, felsefi, popüler veya pratik bilginin görsel olarak düzenlenmesi ve aktarılması üzerine birçok kişisel çalışması mevcut. Kurucu ortağı olduğu Fevkalade adlı bir de grafik tasarım şirketi var. Şu sıralar Sabancı Üniversitesi’ndeki bilim insanlarının araştırmalarının iletişimi üzerinde çalışıyor, bir taraftan da 2014’te yayınladığı felsefe tarihi görselleştirmesi projesine çağdaş felsefeyi dahil etmekle uğraşıyor. Metnin ve bilgi görselleştirmelerinin birlikte aktığı bir biyoloji felsefesi kitabı yazmak ve tasarlamak hayalleri arasında.

Onur aslen iktisatçı. Son 15 seneyi eğitim ve iş nedeniyle İstanbul – Paris – New York – Boston güzergahında geçirdi. Galatasaray Üniversitesi‘nde lisansını tamamladıktan sonra Sorbonne‘da yüksek lisans, ve New York Şehir Üniversitesi‘nde doktorasını tamamlıyor. Doktora sonrası araştırma bursu ile Harvard Üniversitesi’ne geçiyor. Geçen seneden beri de Bentley Üniversitesi‘nde yardımcı doçent olarak çalışmakta. Çalışma alanları genel olarak nüfus ve sağlık konuları etrafında şekillenmiş. Son iki senedir anlamaya en çok vakit harcadığı konu ise Suriye iç savaşı sonrası ortaya çıkan büyük göç dalgasının ekonomik ve sosyal etkileri. Aynı zamanda Birleşmiş Milletler Mülteciler Yüksek Konseyi Lübnan ofisine danışmanlık yapan bir ekibin başında. Bu günlerde en büyük hayali günlerin 24 yerine 48 saat sürmesi ki işler yetişsin.

Amaç, gözü hep dilbilim ve sosyolojide kalmış bir bilgisayar bilimcisi. 2000 yılında İzmir Fen Lisesi’nden mezun olduktan sonra Boğaziçi Üniversitesi’nde bilgisayar mühendisliği okurken, bir yandan da psikoloji bölümünde yan dal yapmaya çalıştı. Yüksek lisans tezi esnasında karmaşık sistemler ve ağ analizleri üstüne araştırma yaptı. İtalya’da Trento Üniversitesi’nin Bilişsel ve Beyin Bilimleri Enstitüsü’nde yaptığı doktorada sosyal ağlarda üretilen içeriklerden yapay zeka sistemleri için sağduyu verisi ve cinsiyetçi basmakalıp bilgileri çıkarmak için yöntemler geliştirdi. 2011 yılında doktorasını tamamlayıp resmi olarak kendisini hesaplamalı dilbilimci olarak tanıtma hakkını kazandı. Son 6 yıldır Facebook’un veri bilimi takımının hesaplamalı sosyal bilimler (computational social science) ekibinde araştırmacı olarak çalışıyor. Boş zamanlarında Türkiye’deki kişi adları ve isimlerin sosyolojisi üstüne çalışıyor. Akdeniz kıyılarında konuşulan dilleri çalışma ve öğrenme hayali var.

Eser, temel bilimlere ve yapay zekâya meraklı bir bilgisayar mühendisi. 2001’de İzmir Fen Lisesi’ni bitirip İstanbul’a gitti. İstanbul Teknik Üniversitesi’nde bilgisayar mühendisliği dalında lisans ve yüksek lisans yaptı. Bu sırada karmaşık sistemler, örüntü tanıma ve biyoenformatik üzerine çalıştı. 2014’te Google’da çalışmak üzere Londra’ya taşındı. Şu anda DeepMind’ın Montreal ofisinde kendi kendine öğrenen sistemler üzerine araştırma yapıyor. Evreni insanlardan daha iyi anlayıp onlara tane tane anlatacak bir yapay zekâ sistemi olsa ne güzel olurdu diye düşünüyor.

Veri görselleştirmesi sizin için ne ifade ediyor? Neden önemli? İnsanlığa faydası sizce ne?

Cem: Veri görselleştirmeleri soyut görsel öğelerin konum, büyüklük gibi özelliklerini bir değişkenler dizisini temsil edecek şekilde kurgulayarak örüntüleri görünür kılar; bu sayede belki yüzlerce satırlık veri tablolarını sezgisel olarak anlamamızı, ilginç durumları fark etmemizi, buradan yeni bilgiler üretmemizi sağlar. Bir veri görselleştirmesine bakmak, izleyicinin bir görsel sistem içinde özgürce “dolaştığı” ve görsel araçları zihninde kullanarak bilgi ürettiği, aktif rol aldığı, zaman alan bir süreç. Aynı verigöre (veri görselleştirmesi) bakan her izleyici farklı şeylere odaklanıp farklı bilgiler çıkarabilir; izleyiciler, verigörü üreten kişinin bilmediği, fark etmediği sonuçlara da varabilir. (Elbette burada, toplanan verinin ne kadar doğru ve kapsayıcı olduğu ve gösterimde yanıltıcı hamleler yapılıp yapılmadığı meseleleri önemli.)

Veri görselleştirmesi, kendi araştırma konumuzu veya topladığımız veriyi kendimiz incelemek ve anlamak için kullanabileceğimiz bireysel bir düşünme aracı görevi de görebilir. Yani varlığını anlamlandırmak için bir izleyici kitlesine ihtiyacı yok; bu noktayı önemsiyorum, çünkü çoğu verigör muhabbetinde işin iletişim kısmı, “halkı bilgilendirme” kısmı aşırı vurgulanıyor – hatta birçok insanın veri görselleştirmeyi açık veri meselesinden ayrı düşünemediğini görüyorum.

Günümüzde verisini kaydedip saklayabildiğimiz şeylerin sayısı giderek arttığı için bu verileri analiz etme ve görselleştirme işi de giderek önem kazanıyor. Büyük bir bakış açısı değişikliğinden bahsedebiliriz: Tıptan popüler kültüre, siyasetten kişisel yaşama birçok konuya veri temelli bakmayı öğreniyoruz. Bu “bakışta” da görselleştirmenin rolü işlevsel olarak önemli. Sadece sayıların dizildiği tablolara ve hesaplanan korelasyonlara bakarak bu yeni perspektifin hakkını verebileceğimizi sanmıyorum.

Onur: Bir yapbozun nihai hali. Parça parça bilgilerin anlamlı bir biçimde bir araya toplanması ve ortak hikayelerini anlatması. Bir de bilimsel araştırma sonucu ortaya çıkan bir durumu en etkili şekilde anlatma biçimi. Fotoğrafa benzeyen sanatsal bir yönü de var. Tasarımcının kafasındaki hikayeyi anlatması nedeniyle evrensel bir doğruluk iddiası yok aslında. Kötü sanat gibi kötü bir görsel de kendini kolayca ele veriyor.

Amaç: Veri görselleştirmesi sürecinde benim ilgimi çeken ve bana keyif veren iki önemli unsur var. İlki, sürecin sonunda başka insanlara göstermekten gurur duyacağım, ufak detaylarının dahi bilinçli olarak tasarlandığı bir “eser” üretmiş olmak. Kendimi sanatçı olarak görmesem de, elle tutulur, insanların üstünde vakit ve enerji harcayacağı bir şeyi üretmiş olmak sanırım sanata en çok yaklaştığım anlardan birisi.

İkincisi, veride gördüğümüz ve anlatmak istediğimiz hikaye ile nesnellik arasındaki kaçınılmaz çekişmeye hakemlik etmek. Her veri görseli doğası gereği öznellik içerir. Daha ilk başta görselleştirmek istediğimiz konuya karar verirken, ardından görselleştirme sırasında kullandığımız/kullanmadığımız veriyi seçerken, renk paletlerini seçerken ve diğer pek çok bilinçli ve bilinçsiz kararda kendi değer yargılarımızı işin içine sokuyoruz. En sonunda varmak istediğimiz nokta ise bu kararları mümkün olduğu kadar bilinçli ve nesnellikten ödün vermeden yapmış olmak. Bunu hakkıyla yapabilmek için hem veri analizi hem görsel tasarım alanında güçlü bir farkındalık geliştirmek gerekiyor. İşin bu kısmıyla cebelleşmek hoşuma gidiyor.

Ben “halk için veri görselleştirmesi” değil, “veri görselleştirmesi için veri görselleştirmesi” kampına daha yakınım. Dolayısıyla bu alanın insanlığa faydası hakkında çok düşünmedim. Ama son yıllarda önem kazanan veri gazeteciliği açısından verigörü etkin kullanmak gerektiği açık. Tek bir görselle Pulitzer ödülü kazanılacağını sanmam ama meslekleri geniş kitlelere haber aktarmak olan insanların veri görselleştirmesinin temel prensiplerine aşina olmaları işlerine zarar vermez.

24 Haziran 2018 seçiminde verilen oyları inceleyerek, önceki seçimden bu yana partiler ve adaylar arası geçişleri kolayca anlaşılır hale getiren bir infografik yayınladınız. Bu çalışmayı yaparken ise, Gary King’in Ecological Inference algoritmasını kullandınız. Bu algoritma nedir, hangi problemi çözüyor ve neyi mümkün ya da kolay hale getiriyor? Biraz bilgi verebilir misiniz?

Onur: Ekolojik çıkarım grup davranışına bakarak birey davranışını tahmin etme amacıyla geliştirilmiş bir yöntem. A ve B gibi iki siyasi partinin ardarda yapılan iki seçimde yüzde 50 oy aldığını varsayalım. Elimizdeki bu bilgi ile seçmenlerin iki seçim arasında tercihlerinin nasıl değiştiğini bilmek aslında imkansız.

İlk akla gelen ihtimal bütün seçmenlerin iki seçimde de aynı partiye oy vermiş olması, buna ekolojik yanılgı deniyor. Çünkü ilk seçimde A partisine oy veren bütün seçmenler ikinci seçimde B partisine oy vermiş olsa, ilk seçimde B partisine oy vermiş bütün seçmenler de ikinci seçimde A partisine oy vermiş olsa da aynı sonuç ortaya çıkacaktı. Gerçek muhtemelen bu iki ihtimal arasında bir yerlerde. King ekolojik çıkarım yöntemini bu probleme bir cevap olarak ortaya atıyor.

“Ecological Inference” algoritması sizce sistem tasarımı, işletme vb hangi alanlarda ve nasıl kullanılabilir? Buna dair birkaç örnek verebilir misiniz?

Amaç: Ekolojik çıkarım yöntemi temel olarak mikro seviyede (birey) verinin olmadığı durumlarda toplulukların davranışı hakkında bir şeyler söyleyebilmek için geliştirilmiş. Geriye dönüp de anketler vasıtasıyla veri toplamanın mümkün olmadığı ya da problemin tanımı gereği birey seviyesinde veriyi toplamanın imkansız olduğu durumların analizinde kendisine sık yer buluyor. Örneğin 2000 Amerikan başkanlığı seçimlerinde Gore ve Bush arasındaki dengeyi bozan Florida oylamasında, hatalı sayılan yurtdışı seçmenlerin oyları aslında sayılmamış olsaydı seçim farklı sonuçlanabilir miydi sorusuna cevap arayan bir makale var (cevap: büyük ihtimalle sonuçlar değişmezdi). Benzer şekilde Nazi’lerin iktidara gelişlerinde toplumun hangi kesimlerinden daha büyük destek aldıklarını incelemek isteyen tarihçiler ve sosyologlar için geçmişe gidip sandık sonrası anket yürütmek mümkün olmasa da, ufak coğrafi bölgelerdeki demografik farklılıkları oy oranları ile ilişkilendirip bazı işe yarar sonuçlara varmaları mümkün.

Yaygın ya da henüz yaygınlaşmamış olan, rafine sonuçlara hızlı ulaşmamızı sağlayacak başka ne gibi algoritmalar var ve gelecekte bu algoritmaları hangi alanlarda görebileceğiz?

Onur: Ben “supervised machine learning” denilen bizim de (herhalde) gözetimli öğrenme diye çevirdiğimiz algoritmaların popülerliğinin artacağını düşünüyorum.

Ekonomi alanında şimdiden çok yaratıcı uygulamaları mevcut. Örneğin gelir ve üretim verisinin olmadığı coğrafi alanlarda uydudan çekilmiş fotoğraflarla gece ışıklarını gözlemleyerek gerceğe oldukça yakın bir üretim ve verimlilik tahmininde bulunmak mümkün. Cep telefonu kullanım ağlarına bakarak yoksulluğun bölgesel dağılımını tahmin eden çalışmalar da var. Kendimden bir örnek bu yaz Lübnan’daki Suriyeli mültecilerin yoksulluk durumlarını benzer bir yapay öğrenme yöntemi kullanarak tahmin ettik. Verinin çok olduğu ama ihtiyaç duyulan veriyi toplamanın imkansız olduğu bir sürü durumda bu algoritmalar bizi tamamen karanlık bir dehlizden kabul edilebilir bir tahmin alanına taşıyor. Bu algoritmaları çok tehlikeli kılan bir durum da ortaya çıkarıyor doğal olarak, bireylerin sosyal medya izlerinden politik tercih tahmininde bulunabilmek ve hatta onu manipüle edebilmek gibi. Michal Kosinski‘nin bu konuda ortaya koyduğu bulgular çok korkutucu.

Veri analizi/analitiği konusunda Türkiye sizce nerede? Bu alanda çalışan akademisyen ve profesyoneller sizce neyi ve nasıl daha iyi yapmalılar?

Cem: Türkiye’de veri analitiği konusunda çalışan birçok bilgisayar bilimci, istatistikçi, sosyal bilimci, mimar, vs. mevcut, bu konuda çeşitli örgütlenmeler de oluştu son yıllarda. Fakat görsel iletişim tasarımı dünyasından bu konuda çalışan kişi çok az. Giderek daha çok analiz çalışması görüyoruz ama iletişim tasarımı açısından zayıflar. Burada sadece “çekicilik”ten veya “eli yüzü düzgün iş” çıkmasından bahsetmiyorum; bilginin ve verinin doğru okunabilmesi, verimli bilgi mimarilerinin kurulması da bu konuda uzmanlaşmış tasarımcıların görevlerinden. Keşke Türkiye’deki görsel iletişim tasarımcıları da biraz bu alana merak sarsa ve yatırım yapsa.

Onur: İstatistik okur-yazarlığı Türkiye’de oldukça düşük. Bu nedenle Türkiye’de verinin en popüler kullanım amaçlarından birinin algı manipülasyonu yaratmak olduğunu düşünüyorum. Bir dönemin popüler politik söylemlerinden biri Türkiye’deki refah artışının bir ölçüsü olarak kişi başı gelirin (nominal olarak) 10,000 doların üzerine çıkmasını örnek vermekti. Biz hiçbir zaman o kadar hızlı zenginleşmedik ama satın alma gücü paritesine göre hesaplanmış ve gerçeğe daha yakın rakamları hem anlamak hem de anlatmak zor, bir de heyecan verici değiller. Aslında objektif bilgiye çok talep olduğunu da düşünmüyorum. Genelde insanların kafasında bir doğru var zaten, bu doğruyu destekleyen “bilimsel” veri analizini ve görseli arıyorlar. Her seçim görseli çıkardığımızda farklı politik kesimlerden tepki alıyoruz, doğru bir iş yaptığımızı gösteriyor bence.

Amaç: En çok sıkıntı çektiğimiz alanlardan birisi çalışmak istediğimiz alanda güvenilir, kolay erişilebilir ve işlenebilir veri bulma. Veri analizi ile uğraşan akademisyen ve profesyonellerin hem bu alana katkıda bulunmak hem de kendi etkinliklerini artırmak için kolayca yapabilecekleri bir şey ellerindeki veri ve kodu daha açık paylaşmaları.

Özellikle oy geçişleri ile ilgili analizlerimiz hakkında akademisyenlerden, araştırmacılardan, gazetecilerden çok güzel yorumlar alıyoruz ama sosyal medyada yürütülen tartışmalar bizde tartışma kültürümüz hakkında büyük bir hayal kırıklığı yaratıyor. Hangi parti seçmeninin ne yönde oy kullandığı her seçim sonrasında insanların çok ilgisini çeken ama aynı zamanda sağlıklı tahminler yapmak için çok az miktarda verinin olduğu bir konu. Biz bu tartışmaya katkısı olsun diye veri tabanlı ve kısıtlarını da açıkça söylediğimiz analizler yayınlarken, insanların bu analizleri daha büyük bir resim hakkında fikir veren ufak parçalar değil de mutlak doğru olduğu iddia edilen sonuçlarmış gibi ele alıp değerlendirmeleri, tartışmanın “Bu analizin sonucu kime yarıyor? O hâlde siz şucusunuz, bucusunuz”a indirgenmesi üzücü oluyor. Herhalde şimdiye kadar tek tek bütün partilerin (ve karanlık güç odaklarının) maşası olmakla suçlanmışızdır sosyal medyada. Halbuki saf merakla ve elimizdeki yeteneklerle-araçlarla bazı konuları incelemeyi seven birkaç arkadaşız sadece. Karşılıklı tartışmaya, hataların gösterilmesine ve kabul edilmesine dayanan, bilimsel bir bilgi üretme sürecinin parçası olmayı umuyoruz.

Berk Bayri 68 makale, 31 röportaj, 10 liste ve 1 inceleme yayınladı.

Röportajlar

Veri analizi ile tarihi olaylara yönelik içgörü edinilebilir mi?

Bu içerik ücretsiz!

Çilek Ağacı nedir? Nasıl ve hangi amaçla bir araya geldiğinizi kısaca anlatır mısınız?

Çilek Ağacı kimlerden oluşuyor? Her biriniz kendinizi kısaca tanıtabilir misiniz? Eğitim geçmişiniz, şu anda ne üzerine çalıştığını ve alanınızda ulaşmak istediğiniz hedefiniz/hayaliniz nedir?

Veri görselleştirmesi sizin için ne ifade ediyor? Neden önemli? İnsanlığa faydası sizce ne?

“Ecological Inference” algoritması sizce sistem tasarımı, işletme vb hangi alanlarda ve nasıl kullanılabilir? Buna dair birkaç örnek verebilir misiniz?

Yaygın ya da henüz yaygınlaşmamış olan, rafine sonuçlara hızlı ulaşmamızı sağlayacak başka ne gibi algoritmalar var ve gelecekte bu algoritmaları hangi alanlarda görebileceğiz?

Veri analizi/analitiği konusunda Türkiye sizce nerede? Bu alanda çalışan akademisyen ve profesyoneller sizce neyi ve nasıl daha iyi yapmalılar?

Keşfetmeye Devam Et

Bu içerik ücretsiz!

Çilek Ağacı nedir? Nasıl ve hangi amaçla bir araya geldiğinizi kısaca anlatır mısınız?

Çilek Ağacı kimlerden oluşuyor? Her biriniz kendinizi kısaca tanıtabilir misiniz? Eğitim geçmişiniz, şu anda ne üzerine çalıştığını ve alanınızda ulaşmak istediğiniz hedefiniz/hayaliniz nedir?

Veri görselleştirmesi sizin için ne ifade ediyor? Neden önemli? İnsanlığa faydası sizce ne?

“Ecological Inference” algoritması sizce sistem tasarımı, işletme vb hangi alanlarda ve nasıl kullanılabilir? Buna dair birkaç örnek verebilir misiniz?

Yaygın ya da henüz yaygınlaşmamış olan, rafine sonuçlara hızlı ulaşmamızı sağlayacak başka ne gibi algoritmalar var ve gelecekte bu algoritmaları hangi alanlarda görebileceğiz?

Veri analizi/analitiği konusunda Türkiye sizce nerede? Bu alanda çalışan akademisyen ve profesyoneller sizce neyi ve nasıl daha iyi yapmalılar?

Bunlar da ilgini çekebilir

Keşfetmeye Devam Et

DAM BİLGİ TEKNOLOJİLERİ A.Ş. | SHERPA BLOG SİTE KULLANIM KOŞULLARI

Demek şifreni unuttun.